Modelos de Regressão Linear e Múltipla
Análise de Dados Ambientais
Universidade Estadual de Feira de Santana (UEFS)
REGRESSÃO
Definição
Técnica de análise de dados que explica quanto uma ou mais variáveis preditoras (VIs) explicam ou estão associadas com um desfecho (VD)
Regressão linear simples Uma variável dependente e uma variável independente
Regressão linear múltipla Uma variável dependente e várias variáveis independentes
Regressão logística Uma variável dependente (dicotômica) e uma ou mais variáveis independentes
Regressão multinomial Uma variável dependente (politômica) e uma ou mais variáveis independentes
O quanto uma ou mais variáveis explicam outra
REGRESSÃO LINEAR
Definição
Conquistas educacionais
Autoestima
Conquistas educacionais
Variável dependente Variável desfecho
Variável independente Variável preditora
REGRESSÃO LINEAR
Como se calcula a regressão
Y = B0 + BxX + E
Em que:
Y = variável dependente.
B0 = intercepto (constante).
Bx = o nível sobre o quanto X impacta Y. X = variável independente.
E = erro aleatório.
REGRESSÃO LINEAR
Um empresário quer saber o quanto o investimento em propagandas aumentou as suas
vendas ao longo do mês.
Propaganda (VI)
Vendas (VD)
REGRESSÃO LINEAR
Um empresário quer saber o quanto o investimento em propagandas aumentou as suas
vendas ao longo do mês.
Y = o desfecho (vendas)
B0 = intercepto (constante) -> o escore no desfecho quando o preditor tem valor = 0 (quando
ele não investia em propaganda, qual era o valor de y (vendas)?
X = o nível do preditor (o quanto foi investido em propaganda).
Bx = o grau sobre o quanto X (propaganda) impacta Y (venda).
E = a porção de variância não explicada pela variável independente (o quanto a propaganda não foi útil para aumentar a venda)
REGRESSÃO LINEAR
Um empresário quer saber o quanto o investimento em propagandas aumentou as suas
vendas ao longo do mês.
Constante (Bo)
A regressão irá traçar a linha que explica a influência da variável preditora no desfecho.
As variações se dão por razões externas que explicam a venda (para além da propaganda).
Por causa dessas influências externas, nenhum modelo é perfeito (livre de erro), e por isso nenhum preditor é capaz de prever 100% o desfecho.
REGRESSÃO LINEAR
Informações** ****que**** ****a**** ****regressão**** ****traz****:**
REGRESSÃO LINEAR
Tipos** ****de**** ****variáveis**
Variável dependente
Sempre ordinal ou escalar (ou seja, uma variável crescente) Variável independente
Pode ser de diferentes categorias
Ordinal, escalar ou categórica (dicotômica; se politômica, usar dummy)
REGRESSÃO LINEAR
Principais** ****pressupostos**
REGRESSÃO LINEAR
Vamos** ****à**** ****prática…**
REGRESSÃO LINEAR MÚLTIPLA
MÚLTIPLA
Equivalente à regressão linear simples, com a diferença de que são adicionados
vários preditores
MÚLTIPLA
Simples:** **Y = B0 + BxX + E
Múltipla:** Y = B0 + B*****1******X******1****** ******+****** ******B******2******X******2****** ******+****** ******…****** ******+****** ******B******n******X******n****** ***+ E
MÚLTIPLA
| Métodos de Entrada | Característica | Vantagens | Desvantagens |
|---|---|---|---|
| Enter (Inserir) | Todas as variáveis são | ||
| inseridas de uma vez | Simplicidade | Multicolinearidade |
Não apresenta o R2 de cada variável |
MÚLTIPLA
| Métodos de Entrada | Característica | Vantagens | Desvantagens |
|---|---|---|---|
| Enter (Inserir) | Todas as variáveis são | ||
| inseridas de uma vez | Simplicidade | Multicolinearidade |
Não apresenta o R2 de cada variável | | Stepwise (Por etapa) | Variáveis inseridas passo-a-passo, com base na significância do F | Modelo mais parcimonioso Apresenta o R2 de cada variável | A significância de F sofre efeito do tamanho amostral. Efeito supressor* |
MÚLTIPLA
| Métodos de Entrada | Característica | Vantagens | Desvantagens |
|---|---|---|---|
| Enter (Inserir) | Todas as variáveis são | ||
| inseridas de uma vez | Simplicidade | Multicolinearidade |
Não apresenta o R2 de cada variável | | Stepwise (Por etapa) | Variáveis inseridas passo-a-passo, com base na significância do F | Modelo mais parcimonioso Apresenta o R2 de cada variável | A significância de F sofre efeito do tamanho amostral. Efeito supressor* | | Forward (Avançar) | Variáveis inseridas passo-a-passo, com base na correlação parcial da VI com a VD | Modelo mais parcimonioso Apresenta o R2 de cada variável | Sofre influência das variáveis do modelo. Efeito supressor |
MÚLTIPLA
| Métodos de Entrada | Característica | Vantagens | Desvantagens |
|---|---|---|---|
| Backward | |||
| (Retroceder) | Variáveis excluídas | ||
| passo a-passo | Elimina possíveis erros de inserção dos métodos stepwise e forward | - |
MÚLTIPLA
| Métodos de Entrada | Característica | Vantagens | Desvantagens |
|---|---|---|---|
| Backward | |||
| (Retroceder) | Variáveis excluídas | ||
| passo a-passo | Elimina possíveis erros de inserção dos métodos stepwise e forward | - | |
| Remove (Remover) | Escolha manual de quais variáveis serão excluídas para comparar modelos | Pesquisador testa os modelos que gostaria | Escolhas arbitrárias podem ser perigosas |
PROBLEMAS DAS VARIÁVEIS
Problema das variáveis
Independência** ****entre**** ****as**** ****variáveis**** (****multicolinearidade****)**
Variáveis independentes (não deve haver muita multicolinearidade).
PROBLEMAS DAS VARIÁVEIS
Problemas das variáveis
Independência** ****entre**** ****os**** ****resíduos**.
PROBLEMAS DAS AMOSTRAS
Problemas da amostra
Resíduos** ****padronizados****: **Resíduos em valores Z, para que todas as variáveis sejam igualmente consideradas.
Resíduo** ****padronizado: **Acima de 3 → Outlier
PROBLEMAS DAS AMOSTRAS
Problemas** ****da**** ****amostra**
Cook´s** ****Distance**
Avalia o efeito de um único caso no modelo como um todo. Valores maiores que 1 merecem atenção! Mahalanobis** ****Distance:**
N = 500; 5 Vis → Mahalanobis = 25 valor problemático;
N = 100; 3 Vis → Mahalanobis = 15 valor problemático;
N = 30; 2 Vis → Mahalanobis = 11 valor problemático;
PROBLEMAS DAS VARIÁVEIS
Tamanho** ****amostral**
Mais confiável calcular no G*Power
MÚLTIPLA
Vamos** ****à**** prática…**
REGRESSÃO MÚLTIPLA
Com variáveis DUMMY
REGRESSÃO MÚLTIPLA COM DUMMY
Quando temos um preditor categórico politômico
REGRESSÃO MÚLTIPLA COM DUMMY
Dummy
REGRESSÃO MÚLTIPLA COM DUMMY
Criando uma tabela dummy
Controle Mata (variável de referência)
| Original | Dummy_1 | Dummy_2 | Dummy_3 | Dummy_4 |
|---|---|---|---|---|
| Controle | 0 | 0 | 0 | 0 |
| Controle | 0 | 0 | 0 | 0 |
| Controle | 0 | 0 | 0 | 0 |
| Caupi | 1 | 0 | 0 | 0 |
| Caupi | 1 | 0 | 0 | 0 |
| Caupi | 1 | 0 | 0 | 0 |
| Milheto | 0 | 1 | 0 | 0 |
| Milheto | 0 | 1 | 0 | 0 |
| Milheto | 0 | 1 | 0 | 0 |
| Guandu | 0 | 0 | 1 | 0 |
| Guandu | 0 | 0 | 1 | 0 |
| Guandu | 0 | 0 | 1 | 0 |
| Crotalária | 0 | 0 | 0 | 1 |
| Crotalária | 0 | 0 | 0 | 1 |
| Crotalária | 0 | 0 | 0 | 1 |
REGRESSÃO LOGÍSTICA BINÁRIA
BINÁRIA
Diferença entre Regressão Linear X Regressão Logística
Diferentes tipos de regressão logística
BINÁRIA
A regressão logística tem por finalidade modelar a probabilidade de ocorrência de um desfecho binário — ex: presença de praga (sim/não) — em função de um conjunto de variáveis explicativas, tais como umidade do solo, rotação de cultura, incidência de insetos benéficos, entre outras.
O que está sendo testado?
Hipótese nula (H₀): O modelo completo não melhora a predição em relação ao modelo nulo (sem preditores).→ As variáveis independentes não têm efeito conjunto significativo.
Hipótese alternativa (H₁): O modelo completo melhora significativamente a predição.→ Pelo menos uma variável independente contribui para explicar o desfecho.
BINÁRIA
Tem por objetivo quantificar a probabilidade de um evento acontecer, de acordo com
os preditores inseridos no modelo
Regressão logística binária refere-se a um modelo onde a variável dependente tem
duas categorias
BINÁRIA
Tem por objetivo quantificar a probabilidade de um evento acontecer, de acordo com os
preditores inseridos no modelo
Transformação logarítimica (logit) do modelo de regressão simples
*P(Y)** *=
1
1 1
1+𝑒−(𝑏𝑜+𝑏 𝑥 )
Regressão Simples
Regressão Múltipla
*P(Y)** *=
1
1 11 2 2
1+𝑒−(𝑏𝑜+𝑏 𝑥 +𝑏 𝑥 + …+𝑏𝑛𝑥𝑛)
BINÁRIA
Cada sujeito está ou não está em um grupo
Exemplo: A probabilidade que pessoas que fumam terem desenvolvido câncer, comparado com os que não fumam.
Variável Desfecho: Não teve câncer de Pulmão (0) x Teve câncer de pulmão (1)
Variável preditora: Fumou x Não Fumou (Dicotômica)
Variável preditora: Número de cigarros fumado por mês (Contínua)
Variável preditora (Dummy): Marca do cigarro fumado (Hollywood, Marlboro, Camel, LuckyStrike)
BINÁRIA
A probabilidade que pessoas que fumam terem desenvolvido câncer, comparado
com os que não fumam.
0
600
BINÁRIA
Log-likelihood é uma estatística baseada em variância não explicada (resíduos)
Quanto menor o valor, melhor o modelo.
A qualidade do modelo é calculado através de uma estatística chamada -2LL
Ao adicionar novas variáveis, o valor do 2LL deve diminuir, atestando que a variável é capaz de melhorar** **o poder de predição do modelo;
Essa diminuição precisa ser estatisticamente significativa (distribuição qui-quadrado);
Problema das variáveis
Independência** ****entre**** ****as**** ****variáveis**** (****multicolinearidade****)**
Variáveis independentes (não deve haver muita multicolinearidade).
Problemas da amostra
Resíduos** ****padronizados****: **Resíduos em valores Z, para que todas as variáveis sejam igualmente consideradas.
Resíduo** ****padronizado: **Acima de 3 → Outlier
PROBLEMAS DAS AMOSTRAS
Problemas** ****da**** ****amostra**
Cook´s** ****Distance**
Avalia o efeito de um único caso no modelo como um todo. Valores maiores que 1 merecem atenção! Mahalanobis** ****Distance:**
N = 500; 5 Vis → Mahalanobis = 25 valor problemático;
N = 100; 3 Vis → Mahalanobis = 15 valor problemático;
N = 30; 2 Vis → Mahalanobis = 11 valor problemático;
BINÁRIA
Acessando** ****a**** ****qualidade**** ****do**** ****modelo**** (tamanho de efeito modelo)**
Cox & Snell R2 (1989): Não atinge o valor de 1;
Nagelkerke R2 (1991) : Corrige a medida de Cox & Snell
McFradden R2(1974): Tende a puxar os valores para baixo
Tjur R2 (2009): Mais recente, menos utilizado, mas provavelmente o melhor indicador.
BINÁRIA
Cox & Snell R2 (SPSS, JASP, JAMOVI, R)
Não atinge o valor de 1
BINÁRIA
Nagelkerke** R****2**** (SPSS, JASP, JAMOVI, R)**
BINÁRIA
McFadden R2** (JASP, JAMOVI, R)**
BINÁRIA
Tjur´s** R****2**** (JASP, R)**
BINÁRIA
Tjur´s** R****2**** (JASP, R)**
BINÁRIA
Acessando** ****o**** ****poder**** ****de**** ****predição**** ****das**** ****variáveis**
BINÁRIA
Acessando** ****o**** ****poder**** ****de**** ****predição**** ****das**** ****variáveis**
BINÁRIA
Análises** ****da**** ****capacidade**** ****de**** ****predição**** ****do**** ****modelo**
Probabilities e Group Membership
Avalia a probabilidade de cada caso ser adequadamente categorizado, de acordo com o seu próprio padrão de resposta Classification plots
Histograma dos valores reais e previstos para o desfecho;
BINÁRIA
Métricas de performance
Accuracy** ****(Acurácia)**:
BINÁRIA
Métricas de performance
AUC** ****(Área**** ****sob**** ****a**** ****Curva**** ****ROC)**:
BINÁRIA
Métricas de performance
Recall** ****(Sensibilidade)**:
BINÁRIA
Métricas de performance
Specificity** ****(Especificidade)**:
BINÁRIA
Métricas de performance
Precision** ****(Precisão)**:
Obrigado!
Luiz Diego Vidal Santos
Universidade Estadual de Feira de Santana (UEFS)
UEFS — Análise de Dados Ambientais